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科学 数据 用 户 相 关 性 标准 研究 
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摘要 : [目的 /意义 ] 以 透镜 理论 为 依据 ,从 认 知 加 工 的 角度 出 发 ,研究 科学 数据 用 户 如 何在 数据 共享 平台 
中 选取 合适 的 数据 。[ 方 法 /过程 ] 研 究 分 两 个 阶段 进行 ,第 一 阶段 选取 14 位 被 试 通过 半 结 构 化 访谈 初步 获取 
科学 数据 相关 性 标准 集合 及 其 使 用 情况 ;第 二 阶段 通过 发 放 671 份 问 卷 获取 相关 性 标准 的 重要 性 ,并 对 第 一 阶 
段 获取 的 相关 性 标准 内 涵 进 行 验证 。[ 结果 /结论 ] 最 终 得 到 9 个 科学 数据 相关 性 标准 ,分 别 为 主题 性 、 可 获得 
性 、 全 面 性 、 时 效 性 、 权 威 性 、 质 量 、 便 利 性 、 规 范 性 和 可 用 性 ,并 对 其 内 涵 进 行 了 界定 和 了 验证。 研究 结果 发 现 , 全 
面 性 和 规范 性 是 科学 数据 的 新 增 标准 ; 可 获得 性 、 可 用 性 和 便利 性 存在 很 强 的 关联 性 ;质量 和 规范 性 存在 很 强 
的 关联 性 ;质量 与 权威 性 虽然 不 相关 , 却 保持 一 致 的 判断 趋 热 。 在 未 来 的 研究 中 为 真正 提升 检索 效率 ,改进 检 
索 系 统 , 除 考虑 用 户 经 常 使 用 的 标准 之 外 ,还 要 发 据 那些 使 用 频率 不 高 但 是 很 重要 的 标准 。 
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工具 ,其 相关 性 的 复杂 性 决定 了 相关 性 标准 的 复杂 性 。 
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料 "针对 这 个 问题 ,已 经 有 很 多 学 者 开展 了 研究 。 同 panties jM MA Add 
Ho ERT ,科学 数据 成 为 了 日 常 工作 中 必 ， 性 是 动态 的 ,因为 对 事物 的 评价 会 随 着 时 间 而 改变 , 依 
KAW, SRNR st TERA T ALOT RIE RS DR 
TEREK Beek Ao Acme 特征 变化 ages 的 判断 ;同时 相关 性 也 是 可 测量 的 ,如 果 研究 是 从 搜索 


的 尾 始 基本 数据 以 及 根据 不 同 科 技 需 要 进行 系统 加 工 者 的 角 度 进行 概念 上 和 操作 上 的 人 处理 的 话 。 不 同 维度 


数据 .卫星 遥感 数据 以 及 基因 数据 等 。 这 些 数据 中 包 量 。 在 信息 载体 维度 上 ,从 传统 的 纸 质 文字 型 信息 发 


含 大 量 的 信息 ,成 为 了 主要 信息 载体 之 一 。 随 着 科学 。” 展 到 如 今 的 网 页 型 信息 、 图 像 型 信息 、 音 乐 型 信息 其 至 
数据 的 发 展 ,科学 数据 用 户 依然 会 遇 到 如 何 选取 合适 ”电子 商务 型 信息 ,信息 载体 已 经 呈现 出 多 元 化 ,而 相关 
的 数据 的 问题 。 性 标准 也 发 生 了 很 大 改变 。 如 网 页 型 信息 中 需要 对 多 

从 用 户 的 角度 来 说 ,科学 数据 用 户 在 检索 数据 过 ” 样 性 或 安全 性 进行 判断 ;图 像 型 信息 中 需要 对 构图 或 
程 中 ,眼睛 受到 外 界 信息 的 刺激 ,将 信息 传递 到 大 脑 进 ”吸引 性 进行 判断 ;音乐 型 信息 更 多 地 偏向 个 人 吝 好 。 
行 加 工 , 最 终 做 出 相关 性 判断 。 在 相关 性 判断 过 程 中 ， 言 息 载体 本 身 的 物理 特质 和 存在 形式 会 对 相关 性 标准 
信息 加 工 就 是 在 大 脑 中 运用 对 应 的 相关 性 标准 进行 度 ”产生 相应 的 影响 。 因 此 当 信 息 载体 发 展 为 科学 数据 
量 的 过 程 。 因 此 相关 性 标准 是 判断 相关 性 等 级 的 度量 “时 ,其 相关 性 标准 必然 发 生变 化 。 本 文 的 研究 重点 主 
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要 有 :中 明确 科学 数据 相关 性 标准 ;@ 科 学 数据 相关 性 
标准 的 内 涵 及 其 使 用 情况 。 


直 以 来 ,相关 性 的 概念 在 情报 学 和 信息 检索 领 
域 都 是 一 个 难题 。 通 过 长 时 间 的 研究 ,学 者 们 公认 相 
关 性 是 一 个 多 维 的 动态 的 ,但 同时 又 是 一 个 系统 化 和 
可 测量 的 概念 。L. Schamber 等 ”强调 了 信息 系统 和 
检索 中 情境 和 情景 的 重要 性 。 情 景 相 关 更 注重 查询 对 
象 的 有 效 性 。 如 在 发 表 论文 过 程 中 ,相关 性 至 少 是 与 
论文 写作 不 同 阶段 作者 所 处 的 情景 相关 ,而 且 通 常 也 
与 检索 者 在 情景 中 的 状态 有 关 。 因 此 学 者 P，Ingwers- 
en 提出 相关 性 涉及 的 一 个 很 重要 的 问题 :是 什么 因 
素 使 一 篇 文献 在 第 一 次 遇 到 时 就 呈现 出 相关 ,或 是 在 
更 本 的 时 间 里 才 表 现 出 相关 。 这 是 一 个 高 度 主观 的 相 

因素 。 本 文 将 这 类 影响 因素 称 为 相关 性 标准 ,很 
多 辟 者 为 回答 这 个 问题 耗费 大 量 精力 开展 研究 。 
205 文献 相关 性 方面 
NL- Schamber™ 从 认 知 的 角度 在 一 个 多 媒体 专业 
的 了 D 作 环境 中 开展 实验 ,研究 了 相关 性 标准 。 后 续 很 
2 者 都 沿用 了 这 种 实验 方法 开展 研究 。T， K. 
Pad") C. I Barry ^. W. Bruce? 和 P. L. Wang ^ #8 
yb E Sce HITT ERE OE SEE AT RE LIB 
SRT HEISE YES Wich BEIM ELE. L. Schamber 等 中 后续 
TOPIC (YL e Lp EAI RE SEC ULL ee Je 
Feat 80 个 相关 性 标准 的 汇编 列表 ,这 些 标准 
是 她 总 结 前 人 相关 文献 后 提出 来 的 ,并 将 其 分 为 了 5 
FR. C. L. Barry 和 L. Schamber ^ 发 现 不 同情 景 
下 用 户 对 相关 性 标准 的 选择 有 着 很 多 相同 之 处 ,因此 
针对 不 同情 境 和 用 户 下 的 两 项 研究 进行 对 比 ,其 结 
发 现 不 同 维度 的 相关 性 标准 研究 中 有 10 个 相同 相关 
性 标准 。 剩 余 少 数 不 同 的 标准 主要 是 由 于 工作 情境 、 
搜索 情境 以 及 研究 要 求 的 差异 。P，Borlund"" 在 研究 
中 也 证 实 了 这 一 发 现 :在 不 同 工 作 环境 的 两 组 不 同 的 
用 户 共用 了 同一 套 相关 性 标准 。 这 也 初步 证 明了 存在 
一 套 有 限 范围 内 普 适 性 的 标准 集合 ,这 类 普 适 性 的 标 
准 集合 适用 于 各 类 用 户 ,任务 背景 以 及 目标 信息 类 型 
等 。 
2.2 网 页 相关 性 方面 

进入 21 世纪 以 后 互联 网 开始 普及 ,人 们 开始 在 网 
页 中 寻找 自己 想 要 的 信息 。 学 者 们 开始 研究 如 何 设计 
系统 或 改进 网 页 能 让 用 户 更 快 地 从 大 量 的 网 页 信息 中 


络 用 户 与 传统 信息 检索 系统 中 检索 者 的 行为 是 不 同 
fj, S. Y. Rieh ”通过 实验 和 访谈 相 结合 的 方法 得 到 
了 3 个 网 页 相关 性 标准 :主题 性 .信息 质量 和 认 知 上 的 
权威 性 。A. Tombros 等 "在 ACM 会 议 中 探讨 了 网 民 
在 利用 网 页 进行 信息 查询 过 程 中 进行 相关 性 判断 时 用 
到 的 标准 。A. Crystal 和 J. Greenberg "^ 从 不 同 于 A. 
Tombros 45 的 角度 研究 了 用 户 在 进行 网 页 搜索 过 程 
中 对 相关 性 标准 的 使 用 ,研究 选取 了 12 个 对 健康 信息 
感 兴趣 的 用 户 开 展 研究 ,得 到 8 个 标准 集 , 其 中 包括 22 
个 次 级 标准 。R. Savolainen 等 ' 汪 在 研究 中 提出 了 可 靠 
性 .安全 性 .多样 性 等 新 标准 。Y.，Kammerer 等 "认为 
由 于 网 页 的 特殊 性 ,除了 考虑 内 容 信 息 ,还 需要 考虑 其 
质量 和 网 页 的 类 型 。 
2.3 图像 相关 性 方面 

言 息 化 和 数字 化 的 发 展 带动 了 数字 图 像 的 发 展 ， 
针对 图 像 的 相关 性 研究 也 越 来 越 多 。M.， Markkula 和 
E. Sormunen ”首次 对 记者 关于 图 像 相关 性 标准 的 选 
取 进 行 了 研究 ,并 得 出 7 个 相关 性 标准 ,其 中 技术 性 和 
视觉 影响 都 是 与 图 像 本 身 特质 相关 的 。Y.， Choi 4&7 
做 了 关于 美国 历史 图 像 检 索 标 准 选取 的 研究 ,通过 访 
谈 分 析 共 得 到 9 个 相关 性 标准 ,其 中 图 像 的 吸引 度 和 
技术 性 都 是 图 像 所 特有 的 标准 。 随 着 图 像 相 关 性 标准 
研究 的 深入 ,T. Y. Hung 等 “在 研究 中 设 定 了 不 同 的 
任务 ,最 终 得 到 12 个 图 像 相关 性 标准 ,其 中 美观 感 , 构 
图 图片 情 节 、 外 观 等 都 与 图 像 物理 结构 相关 。S. 
Sedghi 等 "在 研究 中 采用 扎根 理论 的 方法 ,将 图 像 与 
文档 的 相关 性 标准 进行 了 对 比分 析 ,发 现时 效 性 .可 用 
性 ,版权 颜色 .目标 观众 .可靠 性 .信息 大 小 .质量 和 主 
题 性 同样 适用 于 文献 检索 ;而 方向 技术 信息 放大 率 、 
原始 性 都 是 图 像 所 特有 的 相关 性 标准 。 

通过 上 述 回顾 可 以 发 现 :四 存在 跨 目 标 信息 类 型 
的 共性 标准 ,不 同 信 息 载 体 中 的 相关 性 标准 存在 着 一 
定 关 联 而 非 独立 存在 ,如 主题 性 .新颖 性 .时效 性 质量 
等 ;@ 文 本 相关 性 标准 研究 是 基础 性 研究 ,其 他 研究 都 
是 在 其 基础 上 开展 的 ,因为 文本 是 最 主要 也 是 使 用 最 
多 的 信息 载体 ;四 任何 信息 载体 都 会 存在 与 其 本 身 特 
定 物理 性 质 相 关 的 特异 性 标准 ,如 网 页 信息 载体 类 型 
下 会 关注 超 链接 ,还 会 有 学 者 提 及 网 页 的 安全 性 问题 ， 
图 像 信 息 载 体 类 型 下 会 出 现 技术 性 和 吸引 度 等 相关 性 
标准 ;学 者 们 针对 各 类 信息 载体 都 开展 了 研究 ,但 是 
科学 数据 作为 新 型 信息 载体 ,还 无 人 研究 。 

因此 本 文 开展 以 科学 数据 为 信息 载体 的 相关 性 标 


查找 到 自己 所 需要 的 信息 。C.， Silverstein 等 ”发 现 网 


准 研究 。 在 研究 过 程 中 , 既 要 考虑 其 文本 信息 固有 的 
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相关 性 标准 ,又 要 考虑 科学 数据 本 身 特 有 性 质 产 生 的 
新 型 相关 性 标准 。 
3， 理 论 框架 及 实验 设计 
3.1 理论 框架 

美国 心理 学 家 希 伦 斯 维 克 提 出 我 们 的 感官 并 不 能 
与 外 部 世界 的 物体 和 事件 发 生 直接 的 联系 ,而 只 能 通 
过 介 于 外 部 事物 和 内 部 直觉 之 间 的 “透镜 ”来 获取 信 
息 ”。 如 图 1 所 示 ,模型 左 侧 是 人 所 处 的 真实 世界 的 
事件 和 事物 ,中 间 是 人 做 出 判断 时 头脑 中 的 心理 过 程 ， 
右 侧 是 人 根据 判断 做 出 的 相应 的 行为 。 依 据 透 镜 模 
型 ,本文 探索 如 何 将 感官 刺激 和 用 户 做 出 判断 之 间 的 
内 在 联系 起 来 ,并 通过 线性 组 合 模拟 用 户 做 出 判断 。 


e > [me] > [je s) 
=F A d 3 
N e 标准 \ = dur 
CQ (RR 。 主题 性 Sore dk 
lene Tiat | BRA race | > aa > ne 
[v X maa AE s) M aa 
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HERR SH 

1 4 4 
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图 1 理论 模型 
它 从 传统 意义 上 讲 ,对 信息 的 判断 和 选择 基于 相关 
性 河 断 的 模型 , 即 用 户 接受 或 放弃 某 条 信息 的 主要 依 
据 御 于 这 条 信息 是 否 与 用 户 的 需求 相关 。 相 关 性 判断 
隐 合 在 用 户 的 决策 之 中 * 。 根 据 决策 理论 ,从 一 系列 
检索 结果 中 进行 选择 并 做 出 最 后 的 决策 判断 都 要 依 第 
决策 者 所 使 用 的 相关 性 标准 21 。 学 者 们 研究 发 现 用 
户 在 判断 相关 性 的 过 程 中 除了 主题 相关 标准 外 ,还 会 
使 用 其 他 多 样 化 的 标准 来 进行 判断 。 

受信 息 论 的 启发, 认 知 心理 学 家 将 人 视 为 能 够 接 
受 ,处理 和 加 工 信 息 的 传输 装置 55 。 人 只 有 对 信息 进 
行 串 行 和 并 行 加 工 的 能 力 。 人 可 以 被 视 为 一 个 通信 通 
道 ,人 能 同时 传递 的 信息 量 是 有 限 的 ,但 能 通过 信息 编 
码 克 服 通 道 容量 的 局 限 。 因 此 相关 性 判断 在 认 知 中 是 
一 个 系列 加 工 的 过 程 ,进而 相关 性 标准 的 使 用 也 是 一 
个 系列 加 工 的 过 程 。 
3.2 ”实验 设计 

本 研究 使 用 的 研究 方法 有 访谈 情景 再 现 刺激 用 
户 认 知 .调查 问卷 。 数 据 分 析 方法 主要 是 Nvivo 内 容 
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分 析 和 利用 SPSS 软件 进行 定量 分 析 。 整 个 实验 分 为 
两 阶段 ,第 一 阶段 为 访谈 ,人 研究 选取 了 被 试 14 人 ,来 自 
全 国 各 地 的 大 学 以 及 研究 机 构 , 如 中 国 科 学 院 地 理 研 
究 所 ,北京 航空 航天 大 学 、 中 国 地 质 大 学 等 ,其 中 博士 
1 人 ,人 硕士 11 人 ,本 科 2 人 。 用 户 再 现 完成 “共享 杯 ” 
竞赛 项 目 时 的 检索 过 程 ,笔者 针对 检索 过 程 对 其 进行 
了 访谈 ,初步 获取 科学 数据 相关 性 标准 集合 以 及 用 户 
对 其 内 涵 的 界定 。 第 二 阶段 的 实验 针对 “共享 杯 ” 参 
赛 学 生 ,发 布 大 量 实验 问卷 ,验证 第 一 阶段 的 访谈 结 
果 。 
3.2.1 访谈 数据 收集 和 处 理 ”为 了 获取 用 户 完成 任 
务 时 头脑 中 所 使 用 的 相关 性 标准 ,实验 采用 半 结 构 化 
访谈 。 对 访谈 内 容 进行 编码 ,用 Nvivol1. 0 进行 内 容 分 
析 ,获取 用 户 在 检索 科学 数据 过 程 中 所 使 用 的 标准 以 
及 对 标准 内 涵 的 界定 。 

相关 性 标准 是 用 户头 脑 中 存储 的 知识 ,在 访谈 中 
体现 为 工具 性 的 概念 或 逻辑 关系 ,如 “与 我 的 研究 
相关 ”看 看 能 不 能 用 “信息 非常 全 面 等 ,将 这 些 概 
念 性 的 词语 编码 为 标准 。 结 合 前 人 的 研究 和 定义 , 根 
据 其 意义 命名 ,分别 为 “主题 性 “可 用 性 ”全 面 性 ” 
( 见 表 1)。 


表 1 编码 实例 


访谈 标准 
IP: 最 主要 的 首先 看 一 下 这 个 质量 怎么 样 ,其 次 能 不 能 用 ,能 不 质量 
能 为 我 所 用 。 从 这 三 个 方面 来 把 握 。 可 用 性 
1: 那 你 这 个 为 你 所 用 是 指 什 么 ? 主题 性 
人 P: 跟 论文 相关 。 


IP: 就 是 数据 生产 的 那个 单位 ,中 科 院 可 信 度 比较 高 ,所 以 我 就 ”权威 性 
比较 放心 ,其 他 学 校 获 取 的 数据 就 不 太 敢 用 
IP: Modies 下 载 的 话 ,比较 好 下 ,国内 国外 都 有 便利 性 


3.2.2 问卷 数据 收集 和 处 理 实验 共计 收 到 671 份 
问卷 ,剩余 有 效 问卷 544 份 ,有 效率 为 81.07% 。 其 
中 本 科 生 22 人 ,硕士 研究 生 421 人 ,博士 研究 生 99 
人 ,博士 后 2 人 。 调 研 对 象 在 平时 的 工作 和 学 习 中 经 
常 (50% 的 工作 ) 使 用 科学 数据 的 人 群 所 占 比 重 为 
68% ,有 时 (20% -50% 的 工作 ) 会 使 用 科学 数据 的 
人 和 群 占 23.9% ,所 以 被 试 代表 性 强 , 具 有 一 定 的 参考 
价值 。 


4.1 科学 数据 相关 性 标准 

通过 编码 , 共 得 到 9 个 科学 数据 相关 性 标准 ( 见 表 
2) 。 分 别 是 主题 性 .可 获得 性 ` 质 量规 范 性 权威 性 、 
全 面 性 ,便利 性 、 可 用 性 和 时 效 性 。 
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R2 标准 定义 


标准 定义 


主题 性 。 数据 与 用 户 的 研究 相符 合 ,如 数据 内 容 数据 涉及 时 间 数据 涉 
及 区 域 

可 获得 性 ”不 受 外 界 因素 影响 ,用 户 可 以 顺利 获取 数据 。 如 :没有 获取 权 
限 、 无 下 载 链 接 、 价 格 高 郧 等 


质量 。 数据 的 优 劣 程度 ,如 数据 是 否 准确 、 正 确 或 有 效 


规范 性 数据 的 分 类 体系 ,采集 过 程 等 是 否 符合 国家 要 求 ,或 是 否 一 致 

权威 性 用 户 可 以 信任 这 条 数据 ,主要 指 发 布 数据 的 某 人 或 基 个 机 构 是 
极 具 影响 力 的 

全 面 性 BIRET, WEEER 

便利 性 ”数据 的 检索 ,获取 ,使 用 过 程 方便 

可 用 性 数据 可 以 使 用 ,不 会 受 认 知 局 限 或 格式 等 问题 而 导致 不 能 或 丰 
会 使 用 

时 效 性 数据 仅 在 一 定时 间 段 内 对 研究 具有 价值 ,如 :数据 的 发 表 时 间 
是 最 新 发 表 的 ,或 没有 过 时 的 


4.131 主题 性 ”主题 性 被 定义 为 数据 与 用 户 的 研究 
相符 合 , 主 要 包含 3 个 方面 :内 容 相 关 、 时 间 相 关 、 区 域 
有 美 。 科 学 数据 本 身 包含 一 定 的 内 容 信 息 , 对 于 农业 
闫 器 来 说 ,可 能 包含 产量 .耕地 面积 等 ; 除 此 之 外 还 会 
全 千 相 应 的 时 间 信息 和 空间 信息 ,如 某 年 某 地 的 产量 、 
某 闫 其 地 的 降雨 量 等 。 因 此 用 户 在 选择 科学 数据 的 过 
程 师 ,不 仅 要 选择 研究 内 容 相关 的 ,还 有 选择 符合 自己 
的 讲 完 时 间 段 和 研究 区 域 的 数据 。 编 码 为 主题 性 的 例 
无知: 因为 数据 很 多 ,根据 时 间 和 区 域 ,地 震 发 生 时 间 
是 2014 年 6 月份 ,我们 找 的 是 2014 年 5 月 .6 月 .7 月 、 
有 云 的 影像 数据 “遥感 数据 是 非常 大 的 ,要 做 
号 小 区 域 就 会 找 对 应 区 域 经 纬度 ,要 做 全 国 的 就 会 
找 诸 国 的 数据 ”““ 他 给 的 数据 就 是 很 多 年 土地 数据 和 
经 济 数 据 , 跟 题目 还 挺 相关 的 。 
4. 工 2 可 获得 性 ”可 获得 性 是 指 不 受 外 界 因素 影响 ， 
用 户 可 以 顺利 获取 数据 。 得 到 相关 数据 是 用 户 检索 的 
最 终 目的 ,如 果 不 能 获取 则 数据 就 是 无 用 的 。 正 如 RR. 
Savolainen 等 "中 在 研究 中 提 到 不 可 得 到 会 让 用 户 直接 
否决 其 信息 。 通 过 访谈 可 以 发 现 ,影响 用 户 .使 其 无 法 
获取 数据 的 原因 有 没有 获取 权限 .没有 下 载 链接 .价格 


MRE. WAP RR: 还 有 就 是 资金 问题 ,我们 尽 可 
能 地 会 选择 一 些 免费 的 数据 ,不 会 买 质量 特别 好 、 特 别 
贵 的 数据 ”唯一 的 遗憾 是 下 载 不 下 来 ,无 法 全 文 阅 
读 。 


4.1.3 质量 质量 是 指数 据 的 优 劣 程 度 。S，Y. 
Rieh ^ 认为 “有 用 性 ”和 “优秀 的 ”是 信息 质量 中 两 个 
最 基本 的 因素 。P. L. Wang!” 在 研究 文献 相关 性 标准 


的 质量 定义 可 能 要 包含 数据 的 各 个 方面 ,也 许 还 会 有 
一 个 综合 的 评价 指标 ;而 在 本 文中 数据 质量 就 选取 其 
最 主要 的 内 涵 , 即 数据 是 准确 的 正确 的 .有效 的 。 编 
码 为 质量 的 例子 有 :“ 目前 在 网 上 降水 量 没有 一 个 比较 
准确 的 数字 ”从 很 多 细致 的 统计 途径 得 到 的 数据 ” 
“一 个 是 卫星 获取 数据 , 另 一 个 是 人 工 到 野外 获取 的 数 
据 ,人 工 获取 的 精度 肯定 是 比 卫 星 拍摄 的 好 。” 

4.1.4 规范 性 规范 性 是 指数 据 的 分 类 体系 .采集 过 
程 等 是 否 符合 国家 要 求 ,或 是 否 一 致 。 科 学 数据 作为 
科研 工作 的 基础 数据 ,是 为 科研 工作 服务 的 。 采 集 过 
FE .分 类 标准 的 规范 性 直接 影响 着 工作 的 进度 。 例 如 
有 用 户 提 到 “发 现 数据 没 办 法 整理 ,十 年 的 数据 ,每 年 
的 处 理 都 不 一 样 ,不 太 好 归纳 整理 。”“ 他 们 统计 方法 
是 采用 国家 标准 或 者 国际 标准 ,这 些 标 准 对 于 长 时 间 
序列 数据 来 说 是 很 规范 的 。” 

4.1.5 权威 性 ”权威 性 主要 指 发 布 数据 的 某 人 或 某 
个 机 构 是 极 具 影响 力 的 。 发 布 者 或 发 布 机 构 的 权威 性 
使 得 用 户 信 任 某 条 数据 。C. Watson ” 认为 认 知 权威 
性 影响 一 个 人 的 思想 ,使 其 有 意识 地 辨认 一 篇 文章 。 
也 就 是 说 权威 性 具有 很 强 的 个 人 主观 色彩 ,对 权威 性 
评价 的 高 低 也 会 因 人 而 易 。 正 如 用 户 提 及 的 “最 后 会 
看 数据 来 源 , 看 到 是 中 科 院 ,我 会 比较 放心 “国家 花 
那么 多 人 力 物力 统计 经 济 数据 然后 权威 发 布 ,数据 的 
质量 和 可 信 度 会 更 好 。” 

4.1.6 ”全面 性 全 面 性 是 指数 据 覆 盖 全 面 ,或 完整 没 
有 缺失 。 在 科研 工作 中 需要 的 科研 数据 可 能 是 连续 很 
多 年 的 ,或 者 综合 各 项 指标 ,中 间 缺 失 某 一 年 或 某 项 指 
标 都 不 能 完成 任务 。 编 码 为 全 面 性 的 有 :“ 我 们 现在 用 
的 数据 集 比较 多 ,持续 时 间 长 ,所 以 看 一 下 时 间 序 列 ， 
是 什么 时 候 到 什么 时 候 , 中 间 有 没有 缺 , 是 否 完整 ” 
“看 指标 的 完整 程度 ,指标 完整 就 采纳 ,指标 不 完整 就 
WME.” 
4.1.7 便利 性 (EALERTS AGE ER R E 
过 程 方便 。 用 户 在 获取 数据 的 过 程 中 , 某 条 数据 的 付 
出 成 本 很 小 ,会 让 用 户 更 加 青睐 一 一 即 最 小 努力 原则 。 
面 对 信 息 , 人 总 是 有 意识 地 回避 复杂 费事 和 不 熟悉 的 
言 息 源 ,而 去 寻找 快捷 方便 的 信息 途径 。 语 言 学 家 G. 
K. Zipf ^ 1949 年 的 研究 中 就 说 明 人 们 在 进行 信息 搜 
索 时 会 采用 阻力 最 小 的 途径 。 编 码 为 便利 性 的 有 : 
“Modies 下 载 的 话 ,比较 好 下 ,国内 国外 都 有 ”因为 我 
们 在 地 理 所 的 申请 是 比较 快 的 ,不 需要 离线 申请 ,只 需 


时 也 对 质量 下 了 定义 :文献 是 优秀 的 。 优 秀 是 一 个 宽 
泛 的 概念 ,无 法 准确 说 明 如 何 评价 质量 的 优 劣 。 广 义 


要 提交 一 个 表格 就 够 了 。” 
4.1.8 可 用 性 可 用 性 是 指 在 获取 数据 之 后 ,数据 可 
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以 使 用 ,不 会 受 认 知 局 限 或 格式 等 问题 而 导致 不 能 或 
不 会 使 用 。 科 学 数据 本 身 格式 类 型 多 样 化 ,专业 要 求 
高 , 且 受 领域 认 知 局 限 较 大 。 所 以 数据 的 可 用 性 对 于 
科研 工作 也 至 关 重 要 。 编 码 为 可 用 性 的 有 :“ 这 条 
landset 数据 ,虽然 时 间 地 点 吻合 ,但 是 云 量 特别 大 ,不 
能 用 “我 是 学 地 理 的 ,要 看 格式 是 否 有 问题 。 

4.1.9 时 效 性 ”时效 性 是 指数 据 仅 在 一 定时 间 段 内 
对 研究 具有 价值 ,过 了 茶 个 时 间 段 ,数据 就 没有 了 价 
值 。 同 一 条 数据 在 不 同 的 时 间 具 有 很 大 的 性 质 上 的 差 
异 , 这 个 差异 性 叫 时 效 性 ,时 效 性 影响 数据 的 生效 时 
间 , 决 定 了 数据 在 哪些 时 间 内 有 效 。 一 旦 过 了 这 段 时 
间 , 数 据 就 失去 了 存在 的 价值 ,或 者 说 价值 大 打折 扣 。 


左右 ,少数 相关 性 标准 被 频繁 地 使 用 , 接 下 来 会 有 大 部 
分 偶尔 使 用 的 标准 。 
4.2 ”科学 数据 相关 性 标准 使 用 及 内 酒 

通过 问卷 调查 ,我 们 获取 了 9 个 科学 数据 相关 性 
标准 的 重要 程度 分 布 图 ( 见 图 2) ,从 图 1 中 可 以 看 出 ， 
最 重要 的 标准 为 质量 ,其 次 为 主题 性 ,最 不 重要 的 标准 
为 便利 性 。 质 量 (4. 18) 与 便利 性 (3.48 ) 之 间 相 差 仅 
0.7 分 ,由 此 可 见 在 被 试 者 心中 ,9 个 相关 性 标准 重要 
程度 差距 不 大 ,他 们 认为 每 个 独立 的 标准 对 相关 性 判 
断 都 比较 重要 ;但 是 在 研究 相关 性 标准 使 用 过 程 中 ,我 
们 会 发 现 一 些 标 准 被 频繁 地 使 用 ,如 主题 性 、 质 量 ; 还 
有 一 些 标准 几乎 不 被 使 用 ,如 权威 性 。 由 此 看 来 有 些 


编码 为 时 效 性 的 有 :“ 因 为 土地 利用 也 会 有 变化 呀 ,最 
新 的 才 会 接近 现在 的 情况 “如 果 还 能 从 一 些 部 门 获 
得 更 实时 的 一 些 数据 就 好 啦 。” 

通过 对 14 个 用 户 的 访谈 ,共计 得 到 518 条 回应 ， 


表 3 标准 频次 


标准 不 经 常 使 用 ,但 是 不 代表 不 重要 。 使 用 频率 和 重 
要 程度 并 不 呈正 相关 。 


384 418 — 406 375 378 348  38l 


4.12 371 


QO — t UR UA 


图 2 相关 性 标准 重要 程度 分 布 


因此 ,本 研究 将 相关 性 标准 的 使 用 频率 和 重要 性 
依据 排 位 进行 了 对 比 ( 见 表 4) ,排名 差距 最 大 的 是 可 


频次 HAE 被 试 个 数 获得 性 和 权威 性 ,其 次 是 便利 性 。 被 试 者 在 真实 检索 
m ái 过 程 中 ,很 大 程度 会 考虑 数据 是 否 可 以 获取 以 及 获取 
es i 过 程 中 付出 的 成 本 ,而 在 进行 重要 性 排序 时 , 却 认为 两 
j 者 不 重要 ;同样 被 试 者 认为 权威 性 是 重要 的 ,而 在 检索 
2 id " 过 程 中 却 很 少 用 到 。 由 此 可 见 ,被 试 者 在 认 知 层面 上 ， 
19 6.6% 9 清楚 地 知道 哪些 标准 可 以 帮助 获得 “最 优 ”的 数据 ;但 
可 用 性 1 3.8% 8 是 在 真正 的 检索 过 程 中 ,由 于 人 类 的 惰性 或 外 界 环 境 
Te ? s i 的 限制 ,被 试 选择 数据 的 依据 是 “速度 ”而 非 “ 最 优 ”， 
Wi : ni i 即 希望 通过 最 小 努力 获取 最 大 收益 。 
总 计 287 100% = 
表 4 相关 性 标准 使 用 频率 与 重要 性 对 比 
排名 第 一 位 第 二 位 第 三 位 第 四 位 第 五 位 第 六 位 第 七 位 第 八 位 第 九 位 
使 用 频 主题 性 质量 可 获得 性 时 效 性 全 面 性 便利 性 可 用 性 权威 性 规范 性 
重要 性 质量 主题 性 权威 性 时 效 性 全 面 性 可 用 性 规范 性 可 获得 性 便利 性 


为 了 验证 第 一 阶段 实验 相关 性 标准 内 涵 的 准确 
性 ,将 访谈 过 程 中 出 现 的 关于 各 项 标准 的 描述 性 语句 
总 结 为 短语 ,让 544 位 被 试 进行 选择 归 类 。 每 一 个 描 
述 性 的 短语 都 可 以 自由 归 类 ,也 可 以 同时 归 类 到 不 同 
的 标准 下 。 统 计 将 短语 归 为 同一 标准 下 的 人 数 ,可 以 
得 出 一 个 雷达 图 ( 见 图 3)。 通 过 总 结 ,得 到 了 被 试 一 


116 


致 性 较 高 的 9 个 相关 性 标准 的 描述 性 短语 ( 见 表 5 ) 。 

通过 表 5 可 以 看 出 ,主题 性 ,全 面 性 和 时 效 性 的 描述 
性 短语 没有 交叉 混淆 。 但 是 被 试 者 只 认为 内 容 相关 为 主 
题 性 ,而 时 间 相关 为 时 效 性 , 且 空 间 相 关 不 显著 。 由 此 说 
明 两 点 :一 是 被 试 选 择 主要 依据 字面 意思 ,没有 深入 思考 
豆 语 含义 ;二 是 调查 问卷 的 表述 还 不 够 简单 直观 明了 。 
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全 面 性 


便利 性 


规范 


0584v1 


表 5 描述 性 短语 归 类 


描述 性 短语 


= 


230]: 


Le 
HF 


Le 
HF 


内 容 相关 的 
完整 性 数据 覆盖 全 面 的 
符合 研究 覆盖 时 间 的 、 最 新 发 表 的 时间 相关 的 
清晰 性 可 信 度 ,准确 性 数据 符合 标准 
数据 所 在 平台 、 认 可 程度 .可 信 度 ,数据 生产 者 知名 度 


Im $ 
HF 


权威 性 


容 相关 的 
信 度 
一 一 清晰 性 
一 一 数据 所 在 平台 的 水 平 
一 一 最 新 发 表 的 

一 一 时 间 相 关 的 

一 一 访问 权限 

一 一 空间 相关 的 

一 一 付出 成 本 
一 一 完整 性 

一 一 准确 性 
一 一 数据 生 
一 一 格式 可 
一 一 方便 获 
一 符合 研究 
一 一 数据 答 
一 一 数据 覆盖 全 面 


时 效 性 


产 者 知名 度 


3 ”相关 性 标准 分 类 雷达 图 


致 。 通 过 对 三 者 分 别 进 行 皮尔 逊 相关 性 检验 ,显著 性 
P 均 小 于 0.01, 可 见 三 者 均 显 著 相 关 , 且 便利 性 和 可 获 
得 性 的 皮尔 逊 指数 高 达 0.932。 可 见 三 者 息息相关 ,只 
有 获得 数据 才能 进一步 判断 是 否 可 用 ,而 在 此 过 程 中 
便利 性 则 决定 了 获取 数据 过 程 中 的 成 本 问题 。 


本 项 研究 主要 针对 的 信息 载体 为 科学 数据 ,并 得 
出 了 9 个 科学 数据 相关 性 标准 ,分 别 为 主题 性 .可 获得 
性 ,全 面 性 \ 时 效 性 、 权 威 性 .质量 .规范 性 \ 便 利 性 和 可 
性 。 其 中 主题 性 、 可 获得 性 时效 性 、 权 威 性 、 质 量 、 


TUE 数据 符合 标准 
MH 。 可 下 载 ,访问 权限 .付出 成 本 .方便 获取 、 格 式 可 用 
üt —— 格式 可 用 方便 获取 
Genii 方便 藉 
Xx ER E 4114 e H 
C) 针 对 质量 、 权 威 性 和 规范 性 ,我 们 发 现 可 信和 度 既 属 
于 质量 ,又 属于 权威 性 ;数据 符合 标准 既 属 于 质量 又 属 
于 规范 性 。 由 此 ,本 研究 团队 需要 思考 两 点 :一 是 规范 
性 是 否 属于 评价 质量 的 一 个 分 支 , 就 像 准确 性 和 清晰 


性 一 样 , 且 对 质量 和 规范 性 进行 皮尔 逊 相关 性 检验 ,得 
出 显著 性 P =0. 000 ,在 a =0.01 水 平 下 显著 相关 ;二 
是 质量 和 权威 性 是 否 存在 交叉 ( 见 图 4) , 且 对 质量 和 
权威 性 进行 皮尔 逊 相关 性 检验 ,得 出 显著 性 P = 
0. 162 ,由 此 可 见 两 者 并 不 相关 ,但 是 从 图 4 可 以 清晰 
地 看 出 两 者 在 某 些 描述 性 短语 选择 的 趋势 上 保持 一 
致 ,说 明 两 者 有 着 本 质 区 别 , 但 却 又 有 着 一 定 的 关联 
性 ,如 是 否 数据 越权 威 质量 越 好 。 

针对 可 获得 性 、 可 用 性 和 便利 性 ,可 以 看 出 可 用 性 
包含 便利 性 的 短语 (方便 获取 ) ,可 获得 性 又 全 部 包含 
了 可 用 性 的 短语 (格式 可 用 方便 获取 )。 从 三 者 的 对 
比分 析 图 ( 见 图 5 ) 中 可 以 看 出 三 者 的 趋势 基本 保持 一 


便利 性 ` 可 用 性 是 与 之 前 很 多 学 者 (C.L，Bary” ,L. 
Schamber *' ,P. Wang ”等 ) 在 不 同 信息 载体 下 的 研究 
相 一 致 的 标准 。 除 此 之 外 ,对 于 主题 性 ,后 续 很 多 学 者 
(A. Crystal 42!" R. A. Hamid" 等 ) 的 研究 中 也 有 
“主题 性 ”, 且 使 用 频率 也 是 最 高 的 ,SG Hinh ”在 
针对 学 生 选 取 “electronic resources ”的 研究 中 发 现 , 主 
题 性 和 个 人 兴趣 是 最 重要 的 相关 性 标准 。 对 于 可 获得 
性 ,M，Markkula 等 …“ 在 研究 中 表明 当 检 索 结果 可 以 
获得 时 ,记者 们 得 到 了 令 人 满意 的 结果 ,5S. Sedghi 
等 也 认为 可 获得 性 对 于 用 户 来 说 是 很 重要 的 。 对 
于 时 效 性 , C，Papaeconomou 等 ”和 P. Balatsoukas 
等 ”在 研究 网 页 相关 性 标准 时 也 提出 了 时 效 性 ,Y. 
Choi 等 ”认为 时 间 范 围 对 图 像 的 选择 也 有 一 定 的 影 
响 。 对 于 权威 性 和 质量 ,这 是 判断 信息 真实 性 和 可 靠 
性 的 重要 标准 ， 也 是 得 到 学 者 们 一 致 认可 的 相关 性 标 


117 


Dt dixi 


$63 235 4H 2019257 


ChinaXiv 合 作 期 刊 


400 


一 “一 权威 性 
350 
300 
250 
200 
150 
100 
50 
0 T T T T T T T T T T T 
& & P & © & VP OP d o VE E $4 ^ de & 
Ce SE SS EF EE ES ES 8 ES ES E SE BE 
Fu E ul Fd i FS P ee P JU a E P QU 
G * " SU € 
5 y de 
= 图 4 质量 和 权威 性 的 对 比分 析 
> 
er 450 
400 
= 350 
300 
e 250 
e 200 
N 150 一 一 可 获得 性 
100 可 用 性 
© 35 
eo 0 PL Tur i C E D em 
CN de RD Ue & K © o & ab Ok aie as & CH SKS 
e Td à ee i ws ees roe Lui eee fF Ee 
i $ LE UP SEDE "S Eá E SV J 
N s y a m un 
mu sS R "3 
> 
>< 图 5 可 获得 性 .可 用 性 和 便利 性 的 对 分 分 析 
a f 
WEST H.S. Y. Rieh ^ 专门 针对 两 者 对 信息 判断 的 影 两 个 标准 ;其 次 ,本 文通 过 对 访谈 的 提炼 总 结 可 以 发 


啊 旺 展 研究 。 对 于 便利 性 , 主要 指 付出 成 本 的 大 小 , 面 
对 铀 息 , 人 总 是 有 意识 地 回避 复杂 、 费 事 和 不 熟悉 的 信 
息 源 , 而 去 寻找 快捷 方便 的 信息 途径 , M. D. Barnes 
等 "在 针对 用 户 在 网 络 中 搜索 健康 信息 时 所 使 用 的 
相关 性 标准 的 研究 中 就 提 到 了 使 用 的 便利 性 , 且 早 年 
间 诸 多 研究 都 表明 信息 获取 付出 成 本 越 小 , 越 容易 补 
189/77, MEP AT FE, A. Crystal 4577 则 提出 格式 
是 否 可 用 ,R. Savolainen 等 55 则 提出 语言 是 否 可 以 理 
解 可 用 。 由 此 可 见 以 上 7 个 科学 数据 相关 性 标准 与 前 
人 的 研究 是 一 致 的 , 即 是 跨越 了 不 同 的 信息 载体 类 型 
而 存在 的 。 这 7 个 相关 性 标准 适用 于 所 有 的 信息 类 
型 ,如 文档 图 像 .音乐 ,视频 ,数据 等 。 

与 此 同时 ,本 研究 还 发 现 了 与 科学 数据 本 身 特质 
息息相关 的 独特 相关 性 标准 , 即 全 面 性 和 规范 性 。 首 
先 ,在 进行 前 人 的 研究 综述 中 ,没有 学 者 在 文档 .图像 、 
网 页 .音乐 等 信息 载体 的 研究 中 提出 全 面 性 和 规范 性 
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现 ,全 面 性 主要 侧重 在 数据 在 时 间 和 区 域 序列 上 的 连 
续 性 和 完整 性 ,这 是 基于 数据 的 定时 性 和 定位 性 的 ;最 
后 ,规范 性 侧重 数据 的 分 类 体系 和 统计 方法 方面 符合 
标准 ,这 是 因为 科学 数据 的 检索 是 基于 数据 的 共享 ,而 
若 国 内 外 缺少 统一 的 科学 数据 标准 规范 体系 , 则 妨碍 
了 不 同 领域 科学 数据 的 交换 与 共享 ” ,从 而 影响 科学 
数据 的 检索 ,科学 数据 具有 极 强 的 专业 性 和 领域 性 ,只 
有 统一 规范 ,才能 更 好 地 实现 数据 的 共享 。A. 
Laplante ”在 关于 音乐 相关 性 标准 研究 的 论文 中 曾 提 
出 ,虽然 研究 发 现 一 些 在 文档 网 页 中 出 现 的 相关 性 标 
准 依然 适用 音乐 环境 (如 质量 和 权威 性 等 ) ,但 是 还 是 


AE 
会 出 现 一 些 独 特 的 相关 性 标准 。 正 如 T.， Saracevic 等 
指出 :相关 性 的 研究 不 能 脱离 情景 ,而且 还 要 考虑 到 情 
景 内 在 因素 和 外 在 因素 动态 交互 的 影响 “|。 

通过 文献 总 结 可 以 发 现 ,很 多 学 者 在 研究 中 都 提 
及 了 新 颖 性 。C. L. Barry 曾 提出 了 内 容 新 颖 性 和 信 


al SY RN 
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KRHA, 王 健 , AAR, 等 . 科学 数据 用 户 相 关 性 标准 研究 [本 .图 书 情报 工作 ,2019 ,63(4) :112 - 121. 


息 来 源 新 颖 性 标准 ;P.L.， Wang" 在 研究 中 也 提出 在 
不 考虑 出 版 时 间 的 前 提 下 ,信息 内 容 对 用 户 来 说 是 否 
是 新 的 影响 用 户 判 断 的 因素 ;A，Tombros 4 提 到 在 
网 页 检索 中 网 页 是 否 已 经 看 过 也 会 影响 用 户 的 判断 ; 
R. Savolainen $05 指出 了 好 奇 心 和 熟悉 度 对 用 户 的 
影响 ;MTwait 也 在 研究 中 提 到 了 熟悉 度 对 用 户 的 
影响 ; C，Papaeconomou 5&7" A. R. Taylor && R. 
A. Hamid 等 在 研究 相关 性 标准 的 使 用 过 程 中 也 都 
选择 了 新 颖 性 。 然 而 本 文中 并 没有 出 现 新 颖 性 ,推测 
原因 主要 是 :科学 数据 实用 性 较 强 ,用 户 在 检索 之 前 就 
已 经 明确 了 所 需要 的 数据 ,以 用 为 主 ,并 不 需要 获取 灵 
感 或 是 启发 。 

在 相关 性 标准 使 用 方面 ,使 用 最 为 频繁 的 标准 为 
韦 题 性 ,其 次 为 质量 ,这 与 之 前 很 多 学 者 的 研究 都 一 至 
(PS Balatsoukas 等 |S. Sedghi 457" R, A. Hamid 
等 内 ) 。 主 题 性 .质量 和 可 获得 性 的 使 用 频率 之 和 在 
70 色 左右 ,少数 相关 性 标准 被 频繁 地 使 用 , 接 下 来 会 有 
亏 分 偶尔 使 用 的 标准 ,这 一 发 现在 A. Crystal 40 
的 研究 中 也 被 证 实 过 ,该 发 现 符合 著名 的 长 尾 定律 。 
性 对 于 用 户 来 说 很 重要 ,但 几乎 不 被 提 及 ， 


Ap Grystal 等 "在 研究 中 也 得 到 了 同样 的 结论 。 其 原 


因 蜀 两 点 :一 是 有 些 用 户 不 能 很 好 地 区 分 质量 和 权威 
性 ,或 者 将 权威 性 归 为 质量 ,导致 权威 性 使 用 频率 较 


[六 医 本 最 小 为 原则 选择 。 付 出 成 本 相同 的 情况 下 , 才 
会 网 虑 权威 性 的 等 级 。 由 此 可 见 使 用 频率 与 重要 程度 
不 成 正比 ,A. Tombros! $l C. L. Barry ax ERE H 
研 声 中 也 提 及 此 点 。 

对 于 相关 性 标准 内 涵 的 界定 , 早 在 1996 4p, L. 
Schamber 等 "指出 受到 情景 和 被 试 人 群 的 影响 ,学 者 
们 提出 了 不 同 的 层级 和 内 涵 的 相关 性 标准 。 经 过 多 年 
的 研究 ,有 些 标准 的 内 涵 已 经 十 分 明了 ,但 是 有 些 标准 
内 涵 依 然 模糊 ,如 质量 。 本 文通 过 对 前 人 研究 的 总 结 
和 对 访谈 内 容 的 提炼 ,将 质量 定义 为 数据 是 准确 的 、 正 
确 的 有效 的 。 而 A. R. Taylor 等 ”认为 质量 包含 以 
下 5 个 “价值 :准确 性 、 全 面 性 .时效 性 .可靠 性 和 有 效 
PE. J. E. Klobas"* 提出 质量 的 4 个 成 分 为 : 准确 性 、 
权威 性 .时效 性 和 新 颖 性 。S.L.， Caudle 4&5 认为 质 
量 的 概念 应 该 包括 实际 价值 感知 价值 .审美 .自身 特 
征 以 及 随 着 时 间 变 化 后 的 自身 意义 。S. Y. Rieh ^' Wl 
认为 有 用 的 和 好 的 是 信息 质量 中 两 个 最 基本 的 因素 。 
由 此 可 见 就 广义 来 说 ,学 者 们 一 致 认为 质量 主要 用 来 
评价 信息 的 优 劣 程度 ,但 是 具体 的 内 涵 却 是 仁者 见 仁 ， 


智者 见 智 。 
6 结论 


通过 本 项 研究 ,初步 得 到 了 以 科学 数据 为 信息 载 
体 的 相关 性 标准 集合 ,共计 9 个 相关 性 标准 。 分 别 为 
主题 性 .可 获得 性 全面 性 .时效 性 权威 性 质量 便利 
性 规范 性 和 可 用 性 。 其 中 主题 性 .可 获得 性 时效 性 、 
权威 性 质量 便利 性 和 可 用 性 是 跨越 不 同 信息 载体 而 
存在 的 共性 标准 ;全 面 性 和 规范 性 是 与 科学 数据 自身 
特质 相关 的 独特 标准 。 

对 访谈 过 程 中 相关 性 标准 出 现 频率 的 统计 发 现 ， 
主题 性 ` 质 量 和 可 获得 性 使 用 最 为 频繁 ;从 用 户 对 相关 
性 标准 重要 程度 的 打分 来 看 ,质量 .主题 性 和 权威 性 最 
为 重要 。 由 此 可 见 使 用 频率 和 重要 程度 并 不 成 正 相 
关 。 为 了 真正 提升 检索 效率 ,改进 检索 系统 ,在 考虑 用 
户 经 常 使 用 的 标准 之 外 ,还 要 发 掘 那些 使 用 频率 不 高 
但 是 很 重要 的 标准 ,如 权威 性 。 

通过 大 量 用 户 对 相关 性 内 涵 的 归 类 ,已 经 初步 得 
到 了 主题 性 全面 性 `. 时 效 性 的 内 涵 ; 质 量 和 规范 性 的 
内 涵 ,便利 性 .可 获得 性 和 可 用 性 的 内 涵 高 度 相 关 , 存 
在 包含 关系 ;质量 和 权威 性 的 内 涵 并 不 相关 ,但 是 在 某 
些 描 述 性 短语 选择 的 趋势 上 保持 一 致 ,说 明 二 者 本 质 
存在 区 别 , 但 是 依然 存在 某 些 特定 的 关联 。 
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User -defined Relevance Criteria in Scientific Data 
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€ * Key Laboratory of Agricultural Big Data, Ministry of Agriculture, Beijing 100081 

Abstract ; | Purpose/ significance | Based on lens theory and from the perspective of cognitive processing, the paper 
studied how the users of scientific data select relevant data from the data sharing platform. [ Method/process | The study 
wascconducted in two stages. In the first stage, a total of 14 subjects were selected to obtain their relevance criteria and 
usage of scientific data through semi-structured interviews. The level of importance of the relevance criteria was deter- 
mined , and in the second stage, the concepts of the relevance criteria obtained in the first stage were further verified 
throtigh 671 questionnaires. [ Result/conclusion | Finally, 9 relevance criteria were determined for scientific data; topi- 
cality, availability, comprehensiveness, currency, authority, quality, convenience, standardization, and usability, and 
the defined these concepts. The results showed that comprehensiveness and standardization are unique criteria related to 
the nature of scientific data. The concepts of convenience, availability, and usability are highly associated. The concepts 
of quality and authority are irrelevant, but they are consistent in some descriptive phrases. Thus, the concepts that define 
them must be further clarified. In order to truly make a better data search engine and improve its search efficiency , moving 
beyond the criteria often used by users, it is necessary to determine those criteria that are not often used, but still very im- 
portant. 
relevance criteria 
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